HuBERT: Self-Supervised Speech Representation Learning by Masked Prediction of Hidden Units
自己教師学習による
音声表現学習
モデルの最新版 HuBERT、控え目に言ってヤバいのでは・・。
・面倒な
VQ-VAE
ではなく
k-means
で学習した離散コードを予測するだけ
・音声「だけ」から言語生成も可能 (
dGSLM
)
・音声処理ベンチマーク
SUPERB
で首位を総ナメ
音声では「とりあえず HuBERT」が主流になる予感
pic.twitter.com/pKuk5DZHW8
— ステート・オブ・AI ガイド (@stateofai_ja)
September 14, 2021
論文
GSLM:
https://t.co/5mL6CJv3VB
SUPERB:
https://t.co/X91IL6wdO7
HuBERT:
https://t.co/cY5Ut3lvAR
— ステート・オブ・AI ガイド (@stateofai_ja)
September 14, 2021
「HuBERT のここがスゴい」もう一個あった
音声をたった 365 bps で超高圧縮できるコーデックとして利用可能、ほとんど劣化なし。
論文:
https://t.co/unB7lwkBNK
デモ:
https://t.co/tgPKUsogYS
— ステート・オブ・AI ガイド (@stateofai_ja)
September 15, 2021
#自己教師あり学習
HuBERT
:
Self-Supervised
Speech Representation Learning
by Masked Prediction of Hidden Units
Wei-Ning Hsu
,
Benjamin Bolte
,
Yao-Hung Hubert Tsai
,
Kushal Lakhotia
,
Ruslan Salakhutdinov
,
Abdelrahman Mohamed
Submitted on 14 Jun 2021
https://arxiv.org/abs/2106.07447